Zwischenbericht 2018-05-15

Zusammenfassender Zwischenstand JB, zur Weitergabe an die Kurzteilnehmer und die Kollegen aus eebda.

Makro-Didaktik

Ziel WS 2018: Eine gut durchstrukturierte LehrLernveranstaltung für Gruppen

  • keine Lehr-, sondern eine Lernveranstaltung ("Flipped Classroom"): Stoff wird weitestgehend durch 3rd Party-Lernmaterial exponiert ("vorgelesen") und teilweise auch schon im Selbststudium von den Studierenden rezipiert ("gehört") ... in Präsenz dann gemeinsames Lernen in Gruppen
  • gleichzeitiges Lernen: viele einzelne Alleinlerner in geringem Kontakt; Vorlesung; "Menge"
  • gemeinsames Lernen: Menschen mit Kontakt zueinander; gegenseitige Unterstützung, Kritik, Mitziehen; Menschen in Kontakt; "Gruppe"

Methode: SGL-Lernveranstaltung

  • vom Tutor begleitete Präsenz
  • Auftakt-Veranstaltung plus drei Hackathons in ca 4-wöchigem Abstand
  • dazwischen Selbstlernphasen

Aufgabe des Dozenten:

  • Lernen in einer Präsenzgruppe vorstrukturieren, rhythmisieren, synchronisieren, begleiten, Feedback geben
  • Gruppendynamik auch sozial unterstützen; angstfreies, experimentierfreudiges Lernklima schaffen

fachliche Lernziele:

  • anwendungsbezogene "praktische" Kompetenzen bzgl. Data Science
  • fachlicher Fokus: Predictive Analytics
  • in der Lage sein, bei einer Kaggle-Competition teilzunehmen und nicht ganz hinten zu landen

übergeordnete Lernziele:

  • sich die fachlichen Lernziele im Modus eines tutoriell begleiteten selbstgesteuertes Lernen aneignen können
  • Methodenwissen bzgl. Strukturierung neuer Wissensgebiete
  • Selbstkompetenz bzgl. Kompetenzaneignung

Medien

  • Selbstlern-Tutorials, wie sie z.B. unter Semesterablauf aufgelistet sind
  • Plattform: Jupyter lokal, Server
  • TBD prüfen: Kaggle als Plattform?

Setting

  • ein Dozent
  • idealerweise ein studentischer Tutor
  • Lernaufwand: 5 ECTS = 5*30h = 150h Lernaufwand brutto incl. Organistion; netto = 100h

Python oder R?

Eine quasi-religiöse Frage. Wie im Mittelalter auch entscheidet hier der Landesfürst. Setzung: In unserem Kurs (und insgesamt in LA) arbeiten wir mit Python.

  • Kaggle und Google empfehlen Python. R spielt dort nur noch eine untergeordnete Rolle.
  • Nur Python bietet fortgeschrittene Techniken der Datenintegration und -Vorverarbeitung.
  • Bzgl. Syntax und Logik besteht eine direkte Anschlussfähigkeit an Programmiersprachen in einem (Bindestrich-) Informatikstudium.
  • Python ist erforderlich für Tensorflow, IoT u.V.m.
  • R-Bibliothen sind aus Python heraus ansprechbar. (Viele? alle? TBD: Schnittstellen prüfen, insbes. auch bzgl. Datenmodellen)
  • programmatische Anschlussfähigkeit an "Internet of Things (IuT)"-Labor u.V.m.

HAW LA Setting: Lernaufwands-Schätzung

4 SWS = 4*14h = 56 UE a 45min Präsenz, d.h. Anwesenheit wird dringend empfohlen

16 Studierende

100h verteilt auf

  • 42h Präsenz = 56 UE * 3/4h
    • 4UE Vorbesprechung = 3h
      • Erste Semesterwoche, Anfang Oktober
    • 3 * 16UE = 48UE Hackathons
    • über das Semester verteilt: 4 UE individuelles Feedbak, optional, Rückfragen etc. = 3h
    • ggf. unterstützt durch Tutoren
  • 58h Vor- und Nachbereitung
    • fremdstrukturiertes, selbstgesteuertes Lernen (SGL)
    • Tutorials
    • Prüfungsvorbereitung oder Studienarbeit
  • 50h selbstverantwortetes Studium und Studien-Organisation

mögliche Prüfungsformen

  • klassische mündliche Prüfung 15 Minuten
    • wenige Tage nach HKT3
    • 7 min Präsentation des Kernels der Competition im HKT3, dann Diskussion mit den Prüfern
    • geht nur bei bis zu 12 Studierenden, verteilt auf 2 Tage
  • Studienarbeit
    • mindestens 4 Wochen nach dem HKT3
    • gut kommentierter Kaggle-Kernel

lokale Prüfung in Verantwortung des Modulverantwortlichens (Professor)

HAW LA Setting: Hackathons (HKT)

Orga

  • jeweils Fr 16-21, Sa 9-13, 14-17
  • jeweils 12 Zeitstunden = 16 UE

Vorbereitung jeweils 15h Selbstarbeit pro HKT

  • ggf. Zusatzaufwand für Python A2-Niveau für Programmier-Neulinge

HKT1: erster Hackathon

Ende Oktober

Voraussetzung: Python auf Niveau A2

  • skripting

Inhalte

  • Motivationen klären
    • Wofür ist DS gut
    • Kompetenzen
  • erster Gast-Vortrag
    • aus der Wirtschaft: Datensätze sind meistens geheim
    • Forschung: öffentliche Datensätze
  • Technik
    • Laptop einrichten
    • erste Schritte, grundlegende Handhabung
      • Jupyter-Plattform kennenlernen
      • Anaconda
    • Hello World
      • am Bsp. von Titanic oder Google-Tutorial-Datensatz
    • viele Tutoren unterstützen den indiviuellen Start
  • Durcharbeiten des Tutorials: Wie geht das?
    • mit Beamer vormachen
    • "habe nur hinterhegeklickt"
    • hat Vorlesungs-Charakter
  • 30 Glossarbegriffe BASIC erklären
  • jitt (just in time teaching)
    • Fragen auf Zettel aufschreiben
      • in Kiste
      • Tutoren
    • Moodle-gestützt?
      • Moodle-Forum
      • etherpad
    • Q&A-Plattform!
      • piazza.com
      • stackexchange.com
      • Wiki?
  • Hausaufgabe vorbereiten (siehe HKT2)

Ziele

  • technisch und logistisch arbeitsfähig sein
  • SGL-Lernstil kennen- und lieben lernen

HKT2: mittlerer Hackathon

Ende November

größeres Beispiel durcharbeiten

Fr abend

  • Educational Game
    • 100 Glossarbegriffe ADVANCED erklären
    • ggf. als Tabu-Spiel
    • anki-Lernstapel bereitstellen
    • Trinkspiele
    • je eine Frage auf ein A4-Blatt
  • Q&A-Plattform-Fragen
    • alte Fragen klären
    • neue Fragen stellen ... die am nächsten Vormittag besprochen werden
  • Theorie: 8 kleine Vorträge a 10 Minuten ? eher kritisch

Sa

  • 2 Beispiele durcharbeiten
    • kleines Beispiel
      • Kaggle
        • ein ausgewählter guter Kernel
          • aus "getting started"
          • interessant für WiInf
          • aus dem google-Tutorial?
      • Titanic? zu bekannt
      • andere instruktive
        • House Prices
        • Gesundheit
        • Allbus?
        • World Happyness Index
        • Bild-Auswertung
      • Ziel: 100% verstanden
    • ein anderes mittelgoßes Beispiel
      • HKT3-Niveau
      • Ziel: sehen, was man noch alles lernen will
      • Nachbesprechung
      • Resume ziehen
        • lessons learned
        • neue Fragen; offene Fragen wieder auf die Q&A-Plattform

HKT3: letzter Hackathon

Fr 11. - Sa 12. Januar 2019 (Vorlesungsbeginn Mo 7.1.2019)

Advance Organizer

  • Was haben wir gemacht?
  • Wo stehen wir?

Gruppenarbeit nach belieben

  • KEIN Losverfahren
  • die Guten und die Schlechten
  • auch alleine arbeiten ist ok: "Gruppe" = 1-3 Personen

(z.B. Kaggle-) Competition

Semesterablauf: Inhalte und Verzahnung mit Hackathons

(Dieser Absatz: Stand 2018-04-29T2000)

Wiederholung Statistik

  • Literatur en masse, z.B. auch
    • https://mitp.de/IT-WEB/Statistik/Statistics-Done-Wrong-Deutsche-Ausgabe.html
    • https://www.statisticsdonewrong.com/data-analysis.html

Vorbereitung auf HKT1

Vorbereitung auf HKT2

Vorbereitung auf HKT3

misc

Technik

VHB-Setting

Gedankenexperiment:

  • Wie kann die vorliegende Inverted Classroom Präsenz-Veranstaltung auf ein reines Distance Learning Setting übertragen werden?

Rahmenbedingungen

  • ausschließlich Distance Learning
  • angebot über VHB

Präsenz-Begriff

  • "virtuelle Präsenz", verstanden als synchrone oder asynchrone Kommunikation über soziale Medien - und zwar innerhalb bestimmter Zeiträume teletutoriell betreut
  • mindestens 2 SWS = 28UE

Forums-Begriff

  • Klassiker wie Chat etc: abgelehnt wegen veraltet
  • heute aktuell wäre eine Whatsapp-Gruppe: Wollen wir das?
  • von JB präferiert: einen eigenen Space auf einer klassichen Developer-Plattform wie stackoverflow, piazza etc.

dezentrale oder elektronische (z.B. auch automatisch auswertbare MC-) Prüfungen

Nächste Schritte

diese LV jbusse.de/2018_ss_bwimt/

  • TN der Lehrveranstaltung schreiben Skizze für Hausarbeit; Themen-Cluster:
    • Bitte beschreiben Sie einen traumhaften Ablauf für Hackathon 2
      • Warum HKT2? Man kennt sich schon; man kommt einigermaßen vorbereitet; Essen und Verpflegung sind in eingeschwungenem Zustand
      • Story: was passiert, was macht Spaß
      • Support durch Tutor(en) wie?
      • Vorstrukturierung des Tages
        • zeitliche Taktung
        • inhaltliche Vorstrukturierung wie stringent
        • was tun mit immer vorhandenen unterschiedlichen
          • Lerntempi?
          • Voraussetzungen
    • Arbeiten Sie 8-16h lange eines der Tutorials durch.
      • Protokollieren Sie penibel die genauen Lernzeiten
      • Abschätzung Schwierigkeit, Verständlichkeit
      • Abschätzung eigene Lerneingangsbedingungen, Lernerfolge etc.
  • JB überarbeitet auf Basis der Hausarbeiten das didaktische Konzept der Veranstaltung

Bachelorarbeit T.T.

  • Ziel: Aufsetzen einer komplett ausgestatteten Lernplattform
  • Vorgehen
    • Analyse Plattformen, Kompatibilität mit den geplanten Lernmaterialien; Notebook-Technologie, mögliche Host; Verzahnung mit Social Media Plattform ("Forum") für distance learning-Angebot über die VHB

Anhang

Lernpfade

https://www.kaggle.com/learn/machine-learning

  • Level 1
    • 1 How Models Work: The first step if you are new to machine learning
    • 2 Starting Your ML Project: Loading data, and setting up your computing environment for your hands-on project
    • 3 Selecting and Filtering in Pandas: Getting your data ready for modeling
    • 4 Your First Scikit-Learn Model: Building your first model. Hurray!
    • 5 Model Validation: Measuring the performance of your model. This opens up the possibilities for trying and comparing alternative models
    • 6 Underfitting, Overfitting and Model Optimization: Fine-tune your model for better performance.
    • 7 Random Forests: Using a more sophisticated machine learning algorithm.
    • 8 Submitting From A Kernel: Take pride in what you've built, and start tracking your ongoing progress through a Kaggle Competition.
  • Level 2
    • 1 Handling Missing Values: Learn multiple approaches for dealing with missing data fields
    • 2 Using Categorical Data with One Hot Encoding: Handle this important but challenging data type
    • 3 Learning to Use XGBoost: The most important technique for building high-performance models on conventional data (the type that fits in tables or data frames.)
    • 4 Partial Dependence Plots: Extract insights from your models. Insights many didn't even realize were possible.
    • 5 Pipelines: Make your machine learning code cleaner and more professional
    • 6 Cross-Validation: Improve how you compare and choose models and data preprocessing
    • 7 Data Leakage: Identify and avoid one of the most common and costly mistakes in machine learning.

https://www.kaggle.com/kanncaa1/data-sciencetutorial-for-beginners

  • In this tutorial, I only explain you what you need to be a data scientist neither more nor less.
  • Data scientist need to have these skills:
    • Basic Tools: Like python, R or SQL. You do not need to know everything. What you only need is to learn how to use python
    • Basic Statistics: Like mean, median or standart deviation. If you know basic statistics, you can use python easily.
    • Data Munging: Working with messy and difficult data. Like a inconsistent date and string formatting. As you guess, python helps us.
    • Data Visualization: Title is actually explanatory. We will visualize the data with python like matplot and seaborn libraries.
    • Machine Learning: You do not need to understand math behind the machine learning technique. You only need is understanding basics of machine learning and learning how to implement it while using python.

Content:

  • Introduction to Python: Matplotlib | Dictionaries | Pandas | Logic, control flow and filtering | Loop data structures
  • Python Data Science Toolbox: User defined function | Scope | Nested function | Default and flexible arguments | Lambda function | Anonymous function | Iterators | List comprehension
  • Cleaning Data Diagnose data for cleaning | Explotary data analysis | Visual exploratory data analysis | Tidy data | Pivoting data | Concatenating data | Data types | Missing data and testing with assert
  • Pandas Foundation Review of pandas | Building data frames from scratch | Visual exploratory data analysis | Statistical explatory data analysis | Indexing pandas time series | Resampling pandas time series
  • Manipulating Data Frames with Pandas Indexing data frames | Slicing data frames | Filtering data frames | Transforming data frames | Index objects and labeled data | Hierarchical indexing | Pivoting data frames | Stacking and unstacking data frames | Melting data frames | Categoricals and groupby
  • Data Visualization Seaborn: https://www.kaggle.com/kanncaa1/seaborn-for-beginners | Bokeh 1: https://www.kaggle.com/kanncaa1/interactive-bokeh-tutorial-part-1 | Bokeh 2: https://www.kaggle.com/kanncaa1/interactive-bokeh-tutorial-part-2 | Rare Visualization: https://www.kaggle.com/kanncaa1/rare-visualization-tools | Plotly: https://www.kaggle.com/kanncaa1/plotly-tutorial-for-beginners
  • Machine Learning https://www.kaggle.com/kanncaa1/machine-learning-tutorial-for-beginners/
  • Deep Learning https://www.kaggle.com/kanncaa1/deep-learning-tutorial-for-beginners
  • Time Series Prediction https://www.kaggle.com/kanncaa1/time-series-prediction-tutorial-with-eda
  • Statistic https://www.kaggle.com/kanncaa1/basic-statistic-tutorial-for-beginners

https://developers.google.com/machine-learning/crash-course/

Exemplarische Stellenanzeigen

Netzbetreiber 1

  • (Senior) Data Scientists (m/w) Advanced Analytics
    • Innerhalb des Privatkundengeschäfts ist die Kernaufgabe des Analytics-Teams, die analytische Vorbereitung und operative Unterstützung aller verkaufsfördernden Aktivitäten im Bestandskunden-Management sowie deren Erfolgsmessung und Optimierung.
  • Deine Aufgaben:
    • Schwerpunkte: Du konzipierst und entwickelst innovative datengetriebene Analysen und Dienste, z. B. in den Bereichen Predictive Maintenance und Proactive Care
    • Hierzu wendest du eigenverantwortlich analytische Ansätze aus den Bereichen Advanced Analytics und Machine Learning an und visualisierst deine Erkenntnisse empfängerorientiert (z. B. in PowerBI oder Qlik)
    • End-to-End Verantwortung: Du verstehst deine analytischen Anwendungen vollumfänglich und sorgst dafür, dass deine analytischen Modelle einen Effekt für das Unternehmen und unsere Kunden haben
    • Deine Daten: Du arbeitest mit Produktnutzungsdaten (anonymisiert und personenbezogen) aus den Bereichen Netzwerk-, Fernsehnutzungs- und Wifi Hotspot-Daten
    • Freiheitsgrade: Du gestaltest unsere analytische Plattform auch technologisch aktiv mit und verbindest Big Data mit klassischen Ansätze unter Nutzung unserer SAS-Infrastruktur (Office Analytics, Enterprise Miner, Viya)
    • Internationale Community: Als Teil unserer internationalen Liberty Global Data & Analytics Community tauschst du dich mit Data Scientists aus anderen Landesgesellschaften aus und entwickelst deine Kenntnisse und Kompetenzen aktiv weiter
  • Deine Stärken:
    • Du verfügst über ein abgeschlossenes Studium, vorzugsweise in Informatik, Physik oder Mathematik sowie ausgiebige Kenntnisse in deskriptiver und prädiktiver Analyse (Clustering, Textanalyse, Mustererkennung, Modellierung, Regression, neuronale Netzwerke)
    • Du bist nachweisbar Experte für Big Data- und Cloud-Technologien wie Hadoop (Cloudera), Microsoft Azure (HDInsights) und hast Erfahrung in entsprechenden (funktionalen) Programmiersprachen, z. B. Python, Java, R, Scala, Javascript
    • Du bringst optimalerweise konzeptionelle Kenntnisse in Datenschutz- und Sicherheitsfragen und Lösungen mit, z. B. Privacy by Design, Anonymisierung, Sicherstellung der Privatsphäre bei der Datenspeicherung
    • Du zeichnest dich durch eine hohe Teamfähigkeit aus: Du arbeitest gerne und aktiv in einem Team aus DevOps, Data Scientists und Business Experts und nutzt das Wissen deiner Kollegen
    • [...]

Netzbetreiber 2

  • IHRE AUFGABEN
    • Der Data Scientist bewertet, entwickelt und verwaltet Datenanalytikanwendungen und Kundenlösungen von IoT und anderen Domänen
    • Er wendet für die Entwicklung von IoT-Lösungen entsprechende Statistiken, Machine Learning und analytische Ansätze an
    • Der Data Scientist bereitet Daten vor und auf und entwickelt Algorithmen, konzipiert Lösungen und kooperiert mit Domäne-Experten und Data- Engineers
    • Er unterstützt bei Proof of Concepts in hochmodernen Datenanalytik Umgebungen, um die Umsetzbarkeit aufzuzeigen und Lösungen für (IoT) datenbezogene Geschäftsanforderungen zu entwickeln
    • Der Data Scientist unterstützt die Vertriebskollegen bei Kundenworkshops/ Diskussionen um geeignete Ansätze, Methoden, Werkzeuge und Lösungen zu spezifizieren
    • Er entwirft und implementiert statistische Datenqualitätsverfahren für neue Datenquellen
  • IHR PROFIL
    • Der passende Kandidat hat einen Doktortitel oder Master in Data Science, Physik, Mathematik, Statistik oder Informatik und besitzt entsprechende relevante Berufserfahrung (3-5 Jahre). Darüber hinaus:
    • Erfahrung in (funktionalen) Programmiersprachen, z.B. Python, Java, R, Scala, Javascript.
    • Software Engineering Know-How in agilen Methoden Design, Architektur, Entwicklung, Test, Einsatz
    • Erfahrungen mit Datenanalyse-Tools interaktiver Datenvisualisierung (z.B. Tableau, Visual Analytics)
    • Kenntnisse in Mathematik und statistische Methoden sind erforderlich. Erfahrung in zwei der folgenden Methoden ist wünschenswert: Clustering, Textanalyse, Mustererkennung, Modellierung, Regression, neuronale Netzwerke, sowie das Verständnis von Machine Learning Prinzipien und Methoden
    • Fortgeschrittene Fähigkeiten mit (predictive) Datenanalyse-Tools (z.B. Knime, Rapidminer, Talend, Tableau, Cassandra, Hadoop, Spark), Kompetenzen zur Gestaltung und Verwaltung von Big Data Umgebungen (z.B. Hadoop), Auswertung und Konfiguration von Komponenten (z.B. Spark, DB), Anpassen und Entwicklung von Algorithmen für Kundenlösungen
    • Erfahrungen mit zwei der folgenden Anwendungsbereiche: IoT Analysen, Zeitreihenanalytik, Social Media Analysen, Standortdatenanalytik, Sicherheitsdatenanalytik, Kundendatenanalytik, Signalverarbeitung, Anomalie Erkennung
    • Konzeptionelle Kenntnisse in Datenschutz- und Sicherheitsfragen und Lösungen in IoT- und Datenanalyse, z.B. Privacy durch Design, Anonymisierung, Sicherstellung der Privatsphäre bei der Datenspeicherung
    • Fortgeschrittene Erfahrungen in Cloud-Technologien und Architekturen (z.B. Microsoft Azure, Open Telekom Cloud, Big Data Hadoop BareMetal Cloud)
    • [...]

Netzbetreiber 3

  • IHRE AUFGABEN
    • Als „Data Scientist Internet of Things (m/w)“ entwickeln Sie innovative Data Analytics Lösungen und Architekturen für die Vernetzung von Systemen.
    • Im Detail erwarten Sie folgende spannende Aufgaben:
    • Statistiken, Machine Learning und analytischen Ansätze für die Entwicklung von IoT-Lösungen durchführen
    • Datenmodellen modellieren, Datenanalysen durchführen und Ergebnisse aufbereiten
    • Big Data- und Advanced Analytics Projekte steuern (im Bedarfsfall ebenso Softwareentwicklungsprojekte im Umfeld IoT)
    • Vertriebskollegen bei Kundenworkshops/ Diskussionen um geeignete Ansätze, Methoden, Werkzeuge und Spezifikation von Lösungen unterstützen
  • IHR PROFIL
  • Sie besitzen ein erfolgreich abgeschlossenes Studium der Informatik, Physik bzw. Mathe­matik oder vergleichbare Ausbildung sowie mindestens 4 Jahre Berufserfahrung.
  • Ausgeprägte Kenntnisse in Hadoop (inkl. Apache Spark) und anderen Big Data Frameworks
  • Erfahrung in der Softwareentwicklung (z.B. Python, Java, R, Scala, Javascript) nach agilen Methoden
  • Erfahrungen mit Tools zur Datenanalyse interaktiver Datenvisualisierung (z.B. Tableau, Visual Analytics)
  • Kenntnisse in Mathematik und statistische Methoden
  • Praktische Anwenderkenntnisse in einem der Bereiche Machine Learning, Deep Learning oder Reinforcement Learning
  • Gute Kenntnisse in Technologien wie MapR und Map / Reduce, Pig, Hive sowie in Hadoop in Kombination mit z.B. Sqoop, HBASE und Flume
  • [...]

Unternehmensberatung 1

  • Ihre Aufgabe:
    • Sie entwickeln als Spezialist mit Hilfe von Advanced-Analytics-Methoden Lösungen für die herausfordernden Problemstellungen unserer Klienten - von der Konzeption über die Modellbildung bis zur Übergabe in die Implementierung.
    • Dabei verwenden Sie Ihre Kenntnisse in Mathematik, Statistik, Machine Learning oder Optimierung, um für und mit unseren Klienten aus den verschiedensten Branchen wichtige Erkenntnisse abzuleiten. [...]
  • Ihr Profil:
    • Masterabschluss oder Promotion im Bereich (Wirtschafts-)Mathematik, Statistik, Machine Learning, Physik, Operations Research, Informatik oder einem verwandten Fachgebiet
    • Erfahrung in einem der folgenden Gebiete: statistische Modellierung, Machine Learning, mathematische Optimierung oder Prozesssimulation
    • Erste praktische Erfahrung bei der Anwendung fortgeschrittener Data-Science-Methoden an Echtdaten im Businesskontext
    • Sichere Beherrschung zweier Programmiersprachen (z.B. R, Python, Julia, SQL, GMPL, GAMS, ILOG OPL oder verwandte Sprachen)
    • Kenntnisse einiger typischer Frameworks, z.B. mlr, caret, NumPy, pandas, scikit-learn, Spark ML, Keras, TensorFlow, Theano oder gurobipy
    • Ergänzend Erfahrung in der Anwendung von Gradient Boosting, Support Vector Machines bzw. Neural Networks, Deep Learning oder alternativ im Formulieren und Lösen von Optimierungsproblemen mit Gurobi, CPLEX oder CBC bzw. in der Anwendung von Simulationssoftware wie AnyLogic oder Arena
    • Idealerweise zusätzlich Kenntnisse in Big-Data-Infrastruktur und Cloud-basierten Analyseinstrumenten wie AWS, Azure, Google Cloud, Spark, Hadoop, AMLS oder BigQuery
    • [...]

Unternehmensberatung 2

  • Das erwartet Sie bei uns
    • Sie analysieren Kundendaten und entwickeln Handlungsempfehlungen zur Steigerung von Kundenerlebnissen, Verkaufsabschlüssen etc.
    • Sie beraten, konzipieren und realisieren Lösungen im Bereich Omnichannel Daten Management
    • Sie erarbeiten Zukunftsthemen im Bereich analytisches CRM
    • [...]
  • Das bringen Sie mit
    • Erfolgreich abgeschlossenes Studium der (Wirtschafts-) Informatik, der (Wirtschafts-) Mathematik oder eine vergleichbare Ausbildung
    • Mehrjährige Berufserfahrung als Data Scientist
    • Erfahrung in den Bereichen Big Data und Advanced Analytics, Data Mining, R, SAS sowie in der Programmierung (Python, Java, Lisp, Prolog, C++, Spark, Scala)
    • [...]

Data Science Startup

  • Was man für unser Data Science Trainee Programm mitbringen sollte
    • Freude an Statistikprogrammen
    • abgeschlossenes Hochschulstudium, z.B. in Statistik, Mathematik, (Wirtschafts-) Informatik, Wirtschafswissenschaften oder in einem vergleichbaren Studiengang mit starker quantitativer Ausrichtung
    • idealerweise Kenntnisse in mindestens einem dieser Tools: QlikView / Tableau
    • wünschenswert sind Kenntnisse in R und/oder Python, C, C#, Java sowie SQL
    • [...]

Steuerprüfungsgesellschaft

  • Ihre Herausforderungen
    • Datenextraktion und Datenaggregation sowie Aufbereitung interner und externer Unternehmensdaten
    • Qualitative und quantitative Analyse von Daten zur Identifikation von versteckten Fehlern und Risiken
    • Visualisierung von Analyseergebnissen
    • Datenmodellierung, Design, Implementierung und Test von Extraktions-, Lade- und Transformationsprogrammen (ETL) auf Basis von Microsoft SQL Server
  • Ihr Profil
    • Studium der (Wirtschafts-)Informatik, (Wirtschafts-)Mathematik oder eines vergleichbaren Studiengangs
    • Mehrjährige Berufserfahrung als Data Analyst oder Data Scientist von Vorteil
    • Betriebswirtschaftliche Kenntnisse im Bereich Rechnungswesen & Controlling
    • Kenntnisse über Datenbanksysteme vorzugsweise MS SQL Server, ETL Ansätze und Systeme, SQL Programmierung
    • Erste Erfahrungen mit den SAP Modulen FI, SD, MM wünschenswert
    • Sicherer Umgang mit MS Office
    • Sehr gute Deutsch- und Englischkenntnisse

Analyse Tutorials

analyticsvidhya learning-path

Quelle: https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-python/

Didaktisierung, Lernpfad wie transparent?

Zeitaufwand

  • ca. 4 Std. Bokeh Data Visualization: https://www.datacamp.com/courses/interactive-data-visualization-with-bokeh
  • ca. 4 Stunden Python Lernen bei Data Camp: https://www.datacamp.com/courses/intro-to-python-for-data-science
  • ca. 10 Min für Pandas Einstieg .... länger für Vertiefung
  • ca. 2 Stunden für Lernzielkontrolle mit Harvard Test http://nbviewer.jupyter.org/github/cs109/2014/blob/master/homework/HW1.ipynb

Voraussetzungen

  • Python installieren/aufsetzen (Anaconda, Link für die Installation auf weiteren OS: https://blog.datarobot.com/getting-up-and-running-with-python)
  • Programmieren: Online Course (z.B. ca. 4 Stunden bei Data Camp: https://www.datacamp.com/courses/intro-to-python-for-data-science oder umfassend bei Codeacademy. https://www.codecademy.com/learn/learn-python)
  • Statistik
  • Regex: https://developers.google.com/edu/python/regular-expressions (Cheat Sheet for Regex: https://www.debuggex.com/cheatsheet/regex/python)

Agenda für den Kurs:

  • Vorschlag:
    • Bergrifflichkeiten, Einführung in ML in Form einer Vorlesung
    • Voraussetzungen (s.o) in Form einer Übung / Selbstlernen
  • Lernergebnis
    • Wie sind die Lernziele formuliert
      • Lernzielkontrolle mit Harvard Test
      • Aufsetzen einer Testumgebung mit Anaconda
      • Python mit Bibliotheken
      • Regex
    • Was hat man, was fehlt?
      • Einführung Anaconda-Bedienung fehlt
      • Kein Grundwissen über Machine-Learning oder Data-Science
      • keine Algorithmen
    • Kompetenzniveau
      • Intermediate ... kann Basis Daten auf lokaler Maschine auswerten .... weiteres Kaggle Tutorial notwendig
    • Schwierigkeit
      • Voraussetzungen (IDE) sind nicht gut beschrieben
    • sonstiges
      • Rückgriffe auf Google Tutorial
      • Übungen werden angeboten
  • Bewertung Tutorial-Technik
    • lokale Installation Notebook
      • Anaconda (siehe link oben) enthält empfohlene Frameworks:
        • Numpy ... Python Erweiterung ... stellt eine mächtige Array Klasse zur Verfügung
        • Scipy .... Python Erweiterung ... stellt Mathematische Funktionen bereit zur Datenauswertung/Aufbereitung
        • mathplotlib (online) ... Ausgeben von 2D/3D Grafiken
        • pandas .... Frames
    • online Cloud
      • Python online lernplattform ähnlich codeacademy

analyticsvidhya python-scratch-2

Quelle: https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

Aufbau des Tutorials:

  • Warum Python? (Vergleich zu R und SAS)
  • Installation von Python (es wird empfohlen, auch Anaconda zu installieren) https://blog.datarobot.com/getting-up-and-running-with-python
  • Umgebung wählen
    • Terminal
    • IDLE (default)
    • iPython notebook (z.B. Jupyter)

Python Data-Structures & Libraries

  • Data Structures
    • Lists
    • Strings
    • Tuples
    • Dictionary
  • Iteration and Conditional Contructs
    • For-Schleife
    • If- / Else
  • Libraries (NumPy, SciPy, Matplotlib, Pandas, Seaborn, Bokeh, etc.)
    • > Überblick und jeweils kurze Beschreibung
  • Exploratory Analysis in Python mit Pandas
  • Predictive Model in Python bilden
    • mit Funktionen für logistic Regression und Decision Tree

Voraussetzungen:

  • Grundkenntnisse in Python, da mit Listen und Schleifen begonnen wird (vielleicht reichen auch Kenntnisse einer anderen Programmiersprache)

Allgemein:

  • Grundlagen in Python sind sehr kurz gehalten
  • Exploratory Analysis mit Pandas wird ausführlicher behandelt
    • Datensatz wird bereitgestellt
    • Link zu einer 10-Min.-Einführung in Pandas
  • nicht interaktiv; man muss selber runterladen und bei sich die Code-Snippets eingeben
  • am Ende des Tutorials Link zu einer Challenge um Lernergebnisse zu überprüfen

kaggle kanncaa1 data-sciencetutorial-for-beginners

Quelle: https://www.kaggle.com/kanncaa1/data-sciencetutorial-for-beginners

nutzt dann auch:

Jupyter Notebook

  • Man kann sich das Tutorial "durchlesen" und versuchen den Code zu verstehen
  • aber auch ein Notebook "forken" und dann in seinem eigenen Notebook die Code-Snippets nach belieben verändern und herumprobieren. Ermöglicht tieferes Verständnis der Programmiersprache
  • läuft mit Chrome und Firefox, nicht Safari (Mac)

--> Eher ein Cheat Sheet als ein Tutorial

--> Kompetenzlevel INTERMEDIATE

  • Voraussetzungen
    • Programmiersprache kennen
    • Python zumindest ein bisschen kennen
  • Zeitaufwand
    • Durchlesen und verstehen: 2-3h
  • Lernergebnis
    • Übersicht von wichtigen Operation in Python für: Bokeh, Matplotlib, Pandas, Seaborn

Kaggle Kurs Machine Learning

Quelle: Kaggle Kurs Machine Learning https://www.kaggle.com/learn/machine-learning

Voraussetzungen

  • Python
  • Grundlagen Machine Learning
  • Erste Erfahrungen mit zugehörigen Bibliotheken (v.a. Scikit)

Lerninhalte

  • Wenig fachlicher Hintergrund, hauptsächlich Umseztung von Konzepten mit Python
  • Wie funktionieren Kaggle Notebooks
  • Aufgeteilt in verschiedene Levels 1/2 (man kann anfangen wo man will, also auch bei Lvl 2)

Zeitaufwand

  • Durchlesen, verstehen + erarbeiten ca. 1SWS pro Chapter ( insg. 15 Chapter )

Lernergebnis

  • Kaggle Notebooks bedienen können
  • Codebeispiele für den Aufbau von Modellen mit SciKit

--> Kompetenzlevel INTERMEDIATE

machine-learning-tutorial-python-introduction

Quelle: https://pythonprogramming.net/machine-learning-tutorial-python-introduction/

Stichwort: Holistic Machine learning Tutorial series:

Voraussetzung:

  • Python
  • Statistik (da Algorithmen am Anfang beschrieben werden)

Lerninhalte: (inkl. Video, Text, Mathematischen Formeln & Quiz)

  • Beginnt mit Algorithmen und deren Anwendung
  • Support Vector Machine
  • Kernels
    • Nutzen von Titanic um erlerntes praktisch anzuwenden
  • Deep Learning
    • Tensorflow
    • verschiedene Neuronale Netze

Zeitaufwand:

  • durchlesen, verstehen + erarbeiten ca. 1 SWS pro Chapter (sind über 50+ Chapter)
  • => Zeitaufwand immens hoch

Lernergebnis:

  • Alles?!

--> Kompetenzlevel ADVANCED

developers.google machine-learning crash-course

Quelle: https://developers.google.com/machine-learning/crash-course/

Voraussetzungen laut Google für den Crash-Kurs:

  • https://developers.google.com/machine-learning/crash-course/prereqs-and-prework
  • Mastery of intro-level algebra. You should be comfortable with variables and coefficients, linear equations, graphs of functions, and histograms.(Familiarity with more advanced math concepts such as logarithms and derivatives is helpful,but not required.)
  • Proficiency in programming basics, and some experience coding in Python. Programming exercises inMachine Learning Crash Course are coded in Python using TensorFlow. No prior experience with TensorFlow is required, but you should feel comfortable reading and writing Python code that contains basic programming constructs,such as function definitions/invocations, lists and dicts, loops, and conditional expressions.
  • Weiterführende Links für Python und TensorFlow sind angegeben

Zeitaufwand /Umfang:

  • 15 Stunden
  • 25 Lessons
  • 40+ Excercises (zum überprüfen des erlentes Wissens durch selbständiges Programmieren)

Format

  • Video-Vorlesungen (Folienvortrag)
  • Texte zum durchlesen
  • Multiple Choice Fragen -> Die Bewertung der Ergebnisse ist sofort einsehbar, inkl. ausführlicher Erklärung
  • Glossar vorhanden
  • Programming Excercises
    • Durchführung online in notebook
    • Möglichkeit zum Download der Beispiele, um lokal zu testen (Tutorial für Mac, Windows und Linux verfügbar)
  • Playground Excercises
    • Parameter anpassen um Modell zu bilden, iterativ ML algorithmus modell verbessern lassen
    • Anschaulich

Interessante "real world" Beispiele:

  • Cancer prediciton u.v.m.

Das Wissen kann dann in folgendem Kaggle Wettbewerb angewandt werden:

  • https://www.kaggle.com/c/donorschoose-application-screening

Nach Abschluss des Crash-Kurses, weiterführende Links zu:

  • Deep Learning: https://de.udacity.com/course/deep-learning--ud730
    • Achtung: angegebens Niveau: Profis (vielleicht zu schwierig?)
    • Voraussetzungen für den Kurs:
      • minimum 2 Jahre Programmiererfahrung z.B. in Python
  • Rules of Machine Learning (Best Practices): https://developers.google.com/machine-learning/rules-of-ml/
  • TensorFlow.js
    • Aufsetzen von TensorFlow: https://www.tensorflow.org/install/
    • Guideline zum aufsetzen eines Neuronalen Netzwerk-Classifiers auf Basis von high-level TensorFlow APIs: https://www.tensorflow.org/get_started/premade_estimators
    • TensorFlow Programming Guideline: https://www.tensorflow.org/programmers_guide/

misc/Curricula

Open Content: Haward CS109 Data Science: http://cs109.github.io/2014/pages/syllabus.html

https://github.com/cs109/content

nutzt https://piazza.com/product/overview

  • Anyone can ask and answer questions on Piazza. With students teaching students, conversations on Piazza can continue long after office hours are over.
  • Piazza gives students anonymity options to encourage everyone—even shy students—to ask and answer questions. Instructor endorsements of good questions and answers let instructors push the class in the right direction.
  • andere QA-Software
    • stackexchange

Berkley (ca. 17k$) https://datascience.berkeley.edu/academics/curriculum/ > Foundation Courses (5*3 units)

https://datascience.berkeley.edu/

  • The 27-unit, online program
  • Fee assessment example: A new student who enters the program in Fall 2017 and takes two classes (6 units) would be assessed a total of $14,780.75 (consisting of $2,333 per unit x 6 units + $693.75 Campus Fee + $89 Document Management Fee).

Python for Data Science

  • A fast-paced introduction to the Python programming language. The course introduces a range of python objects and control structures, then builds on these with classes and object-oriented programming. The last component of the course is devoted to Python’s system of packages for data analysis. Students will gain experience in different styles of programming, including scripting, object-oriented design, test- driven development, and functional programming. Weekly programming exercises are designed to reinforce each programming concept, while two larger projects give students experience in developing a larger program and in manipulating a dataset. Aside from Python, the course also spends time on several other technologies that are fundamental to the modern practice of data science, including use of the command line, coding and presentation with Jupyter notebooks, and source control with Git and GitHub.

Research Design and Application for Data and Analysis

  • This course introduces students to the burgeoning data sciences landscape, with a particular focus on learning how to apply data science reasoning techniques to uncover, enrich, and answer questions facing decision makers across a variety of industries and organizations today. After an introduction to data science and an overview of the program, students will explore how individuals and organizations assess options, make decisions, and probe the emerging role of big data in guiding both tactical and strategic decisions. Lectures, readings, discussions, and assignments will teach students how to apply disciplined, creative methods in order to ask better questions, efficiently gather data, interpret results, and convey findings to various audiences in order to change minds and behaviors. The emphasis throughout is on making practical contributions to decisions that organizations will and should make. Industries explored include sports management, finance, energy, journalism, intelligence, healthcare, and media/entertainment.

Statistics for Data Science

  • The goal of this course is to provide students with an introduction to many different types of quantitative research methods and statistical techniques for analyzing data. We begin with a focus on measurement, inferential statistics, and causal inference. Then, we will explore a range of statistical techniques and methods using the open-source statistics language, R. We will use many different statistics and techniques for analyzing and viewing data, with a focus on applying this knowledge to real-world data problems. Topics in quantitative techniques include: descriptive and inferential statistics, sampling, experimental design, parametric and non-parametric tests of difference, ordinary least squares regression, and logistic regression.

Fundamentals of Data Engineering

  • Storing, managing, and processing datasets are foundational to both applied computer science and data science. Indeed, successful deployment of data science in any organization is closely tied to how data is stored and processed. This course introduces the fundamentals of data storage, retrieval, and processing systems in the context of common data analytics processing needs. As these fundamentals are introduced, representative technologies will be used to illustrate how to construct storage and processing architectures. This course aims to provide a set of “building blocks” by which one can construct a complete architecture for storing and processing data. The course will examine how technical architectures vary depending on the problem to be solved and the reliability and freshness of the result. \n The course considers the complete breadth of technology choices. The content spans from traditional databases and business warehouse architectures, so-called big-data architectures, to streaming analytics solutions and graph processing. Students will consider both small and large datasets because both are equally important and both justify different trade-offs. Exercises and examples will consider both simple and complex data structures, as well as data that is both clean and structured and dirty and unstructured.

Applied Machine Learning

  • Machine learning is a rapidly growing field at the intersection of computer science and statistics that is concerned with finding patterns in data. It is responsible for tremendous advances in technology, from personalized product recommendations to speech recognition in cell phones. The goal of this course is to provide a broad introduction to the key ideas in machine learning. The emphasis will be on intuition and practical examples rather than theoretical results, though some experience with probability, statistics, and linear algebra will be important. Through a variety of lecture examples and programming projects, students will learn how to apply powerful machine learning techniques to new problems, run evaluations and interpret results, and think about scaling up from thousands of data points to billions. ... TOOLS: Python / Python libraries for linear algebra, plotting, machine learning: numpy, matplotlib, sk-learn / Github for submitting project code

https://cognitiveclass.ai/courses/data-science-101/

Module 1 - Defining Data Science

  • What is data science?
  • There are many paths to data science
  • Any advice for a new data scientist?
  • What is the cloud?
  • "Data Science: The Sexiest Job in the 21st Century"

Module 2 - What do data science people do?

  • A day in the life of a data science person
  • R versus Python?
  • Data science tools and technology
  • "Regression"

Module 3 - Data Science in Business

  • How should companies get started in data science?
  • Tips for recruiting data science people
  • "The Final Deliverable"

Module 4 - Use Cases for Data Science

  • Applications for data science
  • "The Report Structure"

Module 5 -Data Science People

  • Things data science people say
  • "What Makes Someone a Data Scientist?"

General Information

  • This course is free.
  • It is self-paced.
  • It can be taken at any time.
  • It can be audited as many times as you wish.

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/

Data Visualization with QlikView – from starter to a Luminary

Data Visualization expert with Tableau

Machine Learning with Weka

Machine learning and Deep learning

Interactive Data Stories with D3.js